Neural Radiance Fields (NeRF) have demonstrated superior novel view synthesis performance but are slow at rendering. To speed up the volume rendering process, many acceleration methods have been proposed at the cost of large memory consumption. To push the frontier of the efficiency-memory trade-off, we explore a new perspective to accelerate NeRF rendering, leveraging a key fact that the viewpoint change is usually smooth and continuous in interactive viewpoint control. This allows us to leverage the information of preceding viewpoints to reduce the number of rendered pixels as well as the number of sampled points along the ray of the remaining pixels. In our pipeline, a low-resolution feature map is rendered first by volume rendering, then a lightweight 2D neural renderer is applied to generate the output image at target resolution leveraging the features of preceding and current frames. We show that the proposed method can achieve competitive rendering quality while reducing the rendering time with little memory overhead, enabling 30FPS at 1080P image resolution with a low memory footprint.
translated by 谷歌翻译
Generative models, as an important family of statistical modeling, target learning the observed data distribution via generating new instances. Along with the rise of neural networks, deep generative models, such as variational autoencoders (VAEs) and generative adversarial network (GANs), have made tremendous progress in 2D image synthesis. Recently, researchers switch their attentions from the 2D space to the 3D space considering that 3D data better aligns with our physical world and hence enjoys great potential in practice. However, unlike a 2D image, which owns an efficient representation (i.e., pixel grid) by nature, representing 3D data could face far more challenges. Concretely, we would expect an ideal 3D representation to be capable enough to model shapes and appearances in details, and to be highly efficient so as to model high-resolution data with fast speed and low memory cost. However, existing 3D representations, such as point clouds, meshes, and recent neural fields, usually fail to meet the above requirements simultaneously. In this survey, we make a thorough review of the development of 3D generation, including 3D shape generation and 3D-aware image synthesis, from the perspectives of both algorithms and more importantly representations. We hope that our discussion could help the community track the evolution of this field and further spark some innovative ideas to advance this challenging task.
translated by 谷歌翻译
最先进的3D感知生成模型依赖于基于坐标的MLP来参数化3D辐射场。在证明令人印象深刻的结果的同时,请查询每个沿每个射线样品的MLP,都会导致渲染缓慢。因此,现有方法通常会呈现低分辨率特征图,并通过UPSMPLING网络处理以获取最终图像。尽管有效,神经渲染通常纠缠于观点和内容,从而改变摄像头会导致几何或外观的不必要变化。在基于体素的新型视图合成中的最新结果中,我们研究了本文中稀疏体素电网表示的快速和3D一致生成建模的实用性。我们的结果表明,当将稀疏体素电网与渐进式生长,自由空间修剪和适当的正则化结合时,单层MLP确实可以被3D卷积代替。为了获得场景的紧凑表示并允许缩放到更高的体素分辨率,我们的模型将前景对象(以3D模型)从背景(以2D模型建模)中。与现有方法相反,我们的方法仅需要单个正向通行证来生成完整的3D场景。因此,它允许从任意观点呈现有效渲染,同时以高视觉保真度产生3D一致的结果。
translated by 谷歌翻译
姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务,最高为7DOF,用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望,但它们要么依赖于启发式定义的对应关系,要么易于局部最小值。我们提出了一个可区分的相关(DPC)求解器,该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时,我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言,特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式,将翻译转换和从旋转中脱钩。接下来,使用DPC求解器在频谱中独立有效地估计旋转,比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上,以不同的输入方式,包括2D Bird的视图图像,3D对象和场景测量以及医疗图像。实验结果表明,DCPN ++的表现优于经典和基于学习的基础线,尤其是在部分观察到的异质测量方面。
translated by 谷歌翻译
具有高质量注释的大规模培训数据对于训练语义和实例分割模型至关重要。不幸的是,像素的注释是劳动密集型且昂贵的,从而提高了对更有效的标签策略的需求。在这项工作中,我们提出了一种新颖的3D到2D标签传输方法,即Panoptic Nerf,该方法旨在从易于体现的粗3D边界原始基原始素中获取每个像素2D语义和实例标签。我们的方法利用NERF作为可区分的工具来统一从现有数据集中传输的粗3D注释和2D语义提示。我们证明,这种组合允许通过语义信息指导的几何形状,从而使跨多个视图的准确语义图渲染。此外,这种融合过程解决了粗3D注释的标签歧义,并过滤了2D预测中的噪声。通过推断3D空间并渲染到2D标签,我们的2D语义和实例标签是按设计一致的多视图。实验结果表明,在挑战Kitti-360数据集的挑战性城市场景方面,Pastic Nerf的表现优于现有标签传输方法。
translated by 谷歌翻译
本文研究基于单眼图像的类别级对象构成估计。姿势感知的生成模型的最新进展为解决这一具有挑战性的任务使用分析铺平了道路。这个想法是依次更新生成模型的一组潜在变量,例如,姿势,形状和外观,直到生成的图像最能与观察结果一致为止。但是,收敛和效率是该推理程序的两个挑战。在本文中,我们从视觉导航的角度更深入地研究了分析的推断,并研究了该特定任务的良好导航策略。我们通过在收敛,鲁棒性和效率方面进行彻底比较,评估三种不同的策略,包括梯度下降,增强学习和模仿学习。此外,我们表明一种简单的混合方法会导致有效而有效的解决方案。我们进一步将这些策略与最先进的方法进行了比较,并在利用现成的姿势感知生成模型的合成和现实数据集上展示了卓越的性能。
translated by 谷歌翻译
创成对抗性网络(甘斯)的主要目标是产生相同的统计数据所提供的培训数据的新数据。然而,最近的多部作品表明,国家的最先进的架构又斗争,以实现这一目标。特别地,他们报告的升高量在光谱统计这使得它可以直接区分真实和生成的图像的高频率。对于这种现象的解释是有争议的:虽然大多数的作品属性文物发电机,其他作品指向鉴别。我们需要在这些解释清醒的审视,并提供有关什么使有效的打击高频文物提出的措施的见解。要做到这一点,我们首先独立评估发电机和鉴别两者的架构,如果他们表现出的频率偏差,使学习的高频含量尤其成问题的分布调查。基于这些实验中,我们提出以下四点看法:1)不同的采样操作偏向不同光谱特性的发电机。 2)由上采样引入的伪像棋盘不能单独解释的光谱差异作为发电机能够补偿这些伪影。 3)鉴别器不与检测本身高频纠缠,但具有低幅度的频率上而奋斗。 4)在鉴别器的下采样操作可以削弱它提供的训练信号的质量。在这些研究结果,我们分析提出了在国家的最先进的甘训练对高频文物的措施,但发现没有现有的方法可以彻底解决谱伪呢。我们的研究结果表明,有很大的潜力,在提高鉴别和,这可能是关键的训练数据的分布更紧密地匹配。
translated by 谷歌翻译
单眼视觉惯性进程(VIO)是机器人和自主驾驶中的关键问题。传统方法基于过滤或优化解决了此问题。在完全可解释的同时,他们依靠手动干扰和经验参数调整。另一方面,基于学习的方法可以进行端到端的培训,但需要大量的培训数据来学习数百万个参数。但是,非解剖和重型模型阻碍了概括能力。在本文中,我们提出了一个完全可解释的,可解释的鸟眼视图(BEV),用于具有本地平面运动的机器人的VIO模型,可以在没有深神经网络的情况下进行训练。具体而言,我们首先采用无知的卡尔曼滤波器作为可区分的层来预测音高和滚动,其中学会了噪声的协方差矩阵以滤除IMU原始数据的噪声。其次,采用了精制的音高和滚动,以使用可区分的摄像头投影来检索每个帧的重力对齐的BEV图像。最后,利用可区分的姿势估计器来估计BEV框架之间的剩余3 DOF姿势:导致5 DOF姿势估计。我们的方法允许学习通过姿势估计损失监督的协方差矩阵,表现出优于经验基准的绩效。关于合成和现实世界数据集的实验结果表明,我们的简单方法与最先进的方法具有竞争力,并在看不见的场景上很好地概括了。
translated by 谷歌翻译
近年来,由于其表达力和灵活性,神经隐式表示在3D重建中获得了普及。然而,神经隐式表示的隐式性质导致缓慢的推理时间并且需要仔细初始化。在本文中,我们重新审视经典且无处不在的点云表示,并使用泊松表面重建(PSR)的可分辨率配方引入可分化的点对网格层,其允许给予定向的GPU加速的指示灯的快速解决方案点云。可微分的PSR层允许我们通过隐式指示器字段有效地和分散地桥接与3D网格的显式3D点表示,从而实现诸如倒角距离的表面重建度量的端到端优化。因此,点和网格之间的这种二元性允许我们以面向点云表示形状,这是显式,轻量级和富有表现力的。与神经内隐式表示相比,我们的形状 - 点(SAP)模型更具可解释,轻量级,并通过一个级别加速推理时间。与其他显式表示相比,如点,补丁和网格,SA​​P产生拓扑无关的水密歧管表面。我们展示了SAP对无知点云和基于学习的重建的表面重建任务的有效性。
translated by 谷歌翻译
NeRF synthesizes novel views of a scene with unprecedented quality by fitting a neural radiance field to RGB images. However, NeRF requires querying a deep Multi-Layer Perceptron (MLP) millions of times, leading to slow rendering times, even on modern GPUs. In this paper, we demonstrate that real-time rendering is possible by utilizing thousands of tiny MLPs instead of one single large MLP. In our setting, each individual MLP only needs to represent parts of the scene, thus smaller and faster-to-evaluate MLPs can be used. By combining this divide-and-conquer strategy with further optimizations, rendering is accelerated by three orders of magnitude compared to the original NeRF model without incurring high storage costs. Further, using teacher-student distillation for training, we show that this speed-up can be achieved without sacrificing visual quality.
translated by 谷歌翻译